Projet 6 - Classification Automatique des Biens de Consommation

Partie 2 de 3

1. Introduction

1.1 Le Contexte

L’entreprise "Place de marché", qui souhaite lancer une marketplace e-commerce, voudrait mettre en place un moteur de classification: la catégorie d'un article est attribuée automatiquement après le téléchargement d'une photo de l'article. L'entreprise attend que un tel moteur de classification a les bénéfices suivantes :

1.2 Objectif

1.3 Résumé de ce Notebook

Dans ce notebook, on traite le texte tokenisé et lemmatisé de de la description du produit, réduit les dimensions (le nombre de tokens/features, fait des projections en 2-D) et fait du clustering pour évaluer la faisabilité d'un moteur de classification basé sur une description de produit. Finalement, on fait des premiers modèles de classifications.

Conclusions:

2. Les Imports

2.1 Les Bibliothèques et Styles

2.2 Les Fonctions

Traitement de Texte Tokenisé

Visualisation des Données / Projection en 2d

Transformers Customisés

Optimisation des Modèles

Collections du Data, des Résultats

2.3 Les Données

3. Prétraitement - Version 1

3.1 Les Categories - le target

3.2 Les Documents - les variables

3.3 Le Prétraitement - réduction de Vocabulaire et de Dimension

3.3.1 Réduction de Vocabulaire avec CountVectorizer et SelectFpr(alpha=0.01)

3.3.2 Réduction de Dimension avec TfidfTransformer et PCA(n_components=0.99)

3.4 Le Preprocessor - rationalisation du prétraitement

3.5 Projection en 2D

3.5.0 Initialisation

3.5.1 Les Différentes Projections

PCA

MDS

Isomap

TSNE0

TSNE1

TSNE2

LocallyLinearEmbedding

SpectralEmbedding

3.5.2 Manifold apprentissage

Pris du website de SKlearn : https://scikit-learn.org/stable/auto_examples/manifold/plot_lle_digits.html#sphx-glr-auto-examples-manifold-plot-lle-digits-py

4. Clustering - Version 1

4.1 KMeans - Version1

4.1.1 Clustering

4.1.2 Rapport Détaillé du Clustering 'KMeans' avec NLTK

Comparision des Labels